package com.qingyun.service.compare;

import org.apache.pdfbox.Loader;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PdfScanChecker {
    public static boolean isScannedPdf(PDDocument document) throws IOException {
        PDFTextStripper stripper = new PDFTextStripper();
        for (int i = 0; i < document.getNumberOfPages(); i++) {
            String text = stripper.getText(document);
            if (text != null && !text.trim().isEmpty()) {
                // 如果能提取出文字，说明不是纯扫描件
                document.close();
                return false;
            }
        }
        document.close();
        // 如果所有页面都提取不出文字，可能是扫描件
        return true;
    }
}
